什么是统计学¶
统计是一门收集、整理、描述、显示和分析统计数据的方法论的科学, 其目的是通过大量观察研究, 消除特殊性和随机性, 探索事物的内在数量规律性, 以达到对客观事物的科学认识。
根据统计学的研究目的不同, 将统计学分为理论统计学和应用统计学; 根据统计方法在研究统计数据的过程中的作用不同, 将统计学分为描述统计学和推断统计学。
数据的收集¶
统计数据的收集主要是通过统计调查取得。统计调查的方式有普查、抽样调查、重点调查、典型调查以及统计报表制度等。
在统计调查实施前, 需要制定统计调查方案, 统计调查方案的内容包括:
- (1) 确定调查目的和任务;
- (2)确定调查对象、调查单位、调查范围和方法;
- (3)确定调查表式、主要内容和标准;
- (4)确定调查时间和填表登记时间;
- (5) 确定调查工作的组织实施计划;
- (6)数据处理和质量控制。
统计数据整理是根据统计研究的目的, 将统计调查所得的数据进行科学地加工, 使之系统化、条理化, 并成为能反映总体数量特征的综合资料的工作过程。
统计数据整理的步骤:
- (1) 设计和编制统计数据资料的汇总方案;
- (2)对收集到的原始资料进行审核;
- (3)根据研究目的的要求和统计分析的需要, 对原始资料进行分组;
- (4)进行汇总计算, 编制次数分布表;
- (5)编制统计表;
- (6)进行统计数据资料的汇编, 系统地积累历史数据。
图表展示¶
统计表和统计图形是显示统计数据的两种方式, 它们可以概括描述数据的基本特征。
- 定性数据可以用频数分布表、饼图、条形图、环形图来描述。
- 定量数据除了可以用定性数据图示表示方法, 还可以用直方图、折线图、散点图、茎叶图以及箱线图等来展示。
数据描述之概括度量¶
统计数据经过整理后, 通过统计表或统计图基本 上可以展示数据的次数分布特点, 但是, 需要找出数据的分布规律和本质特征, 还需研究次数分布的集中趋势和离中趋势。
- 集中趋势是指一组数据向某一中心值靠拢的程度, 它反映了一组数据中心点的位置所在。集中趋势的度量通常有: 算术平均数、调和平均数、几何平均数、 中位数以及众数等。
- 离中趋势是指各个变量值远离其中心值的程度, 又称为离散程度或变异指标。常用的指标有极差、平均差、方差、标准差、离散系数以及异众比率等。
概率与分布¶
在相同条件下进行 $\mathrm{n}$ 次随机试验,事件 $A$ 出现 $m$ 次,则 $m / n$ 就被称为事件 $A$ 发生的频率,随着 $\mathrm{n}$ 的增加, 该频率会越来越接近某一常数 $p$, 最终趋向于稳定, 频率的稳定值 $p$ 就被看作是事件 $\mathrm{A}$ 的概率。记为: $P(A)=m / n=p$ 。
事件的概率是一次试验某一个结果发生的可能性大小, 如要全面了解试验, 还必须知道试验的全部可能结果及各种可能结果发生的概率, 即随机试验的概率分布。概率分布根据随机变量的取值是否具有连续性, 可 分为离散分布和连续分布。
- 离散分布是指随机变量的所有可能的不同取值是 有限或可列无限多个,如两点分布、二项分布、泊松分 布以及超几何分布等。
- 连续分布是指随机变量的取值不可以逐个列举出 来, 而是取数轴上某一区间上的任意点, 常见的连续型分布有正态分布、卡方分布、 $F$ 分布以及 $t$ 分布等。
参数估计¶
参数估计是根据从总体中抽取的样本统计量对总体参数量进行估计的方法。样本统计量是对样本特征的某个概括性的度量。
参数估计的方法有点估计和区间估计。
用抽样指标估计总体参数有三个标准, 即无偏性、 有效性以及一致性, 只有满足这三个要求, 估计才是合理、 优良的估计。
- 无偏性: 如果一切可能的样本统计量的值与总体参数值偏差的平均值为 0 , 这种统计量就是总体参数的无偏估计量;
- 有效性:当总体参数不止有一种无偏估计量时, 某一种估计量的一切可能样本值的方差小者有效性高, 方差大者有效性低;
- 一致性: 当样本容量无限增大时, 估计量的值能越来越接近它所估计的总体参数值, 这种估计是总体参数一致性估计量。
点估计就是直接以样本统计量的实现值来近似于相应的总体参数。常用的点估计有: 用样本均值估计总 体均值, 用样本比例估计总体比例, 用样本方差估计总体方差。
区间估计就是根据估计可靠程度的要求, 利用随机抽取的样本的统计量值确定能够覆盖总体参数的可能区间的一种方法。
置信度, 又称置信水平或置信系数, 是作出某种推断时正确的可能性(概率)。
父置信区间, 也称置信间距, 是指在某一置信度时, 总体参数所在的区域距离或区域长度。
假设检验¶
假设检验是推断统计的另一个重要组成部分。它是对末知的总体参数或分布形式提出某种假设, 然后利用样本信息和相关统计量的分布特征去检验这个假定,
假设检验的一般步骤 :
- 根据题设建立原假设 $\mathrm{H}_0$ 和备择假设 $\mathrm{H}_1$;
- 构造适当的检验统计量;
- 确定显著性水平 $\alpha$ 和对应的临界值;
- 计算检验统计量;
- 作出统计决策并加以解释。
几种常见的假设检验:
考虑下面三种类型的假设检验:
- $\mathrm{H}_0: \mu=\mu_0 \quad \mathrm{H}_1: \mu \neq \mu_0$ (双边检验 )
- $\mathrm{H}_0: \mu \leqslant \mu_0 \quad \mathrm{H}_1: \mu>\mu_0$ (右侧单边检验)
- $\mathrm{H}_0: \mu \geqslant \mu_0 \mathrm{H}_1: \mu<\mu_0$ (左侧单边检验)
常见的假设检验方法有 $\mathrm{Z}$ 检验法和 $\mathrm{t}$ 检验法等。
- $\mathrm{Z}$ 检验法主要用于总体平均数和总体成数的假设检验, 一般适用 于大样本的情况, 常见的有一个总体均值的显著性检验、两 个总体均值之差的显著性检验、一个总体成数的显著性检验以及两个总体成数之差的显著性检验。
- $\mathrm{t}$ 检验是用于服从 $\mathrm{t}$ 分布的统计量检验正态总体平均值的方法,其一般适用于小样本的情况, 常见的有一个总体均值的检验、两个总体均值之差的检验。除此之外还有正态总体的假设检验, 如拟合检验法和雅克一贝里(JB) 检验法。
相关系数与回归分析¶
统计上对现象之间的数量关系的研究主要是从相关分析和回归分析两个方面进行。相关关系是一种不确定的关系, 即当一个现象发生变化时, 另一个现象也相应地发生变化, 但其变化的数值是不固定的, 往往会出现几个不同的数值与其对应。衡量相关关系的有相关图和相关系数。回归分析是确定两种或两种以上变量 间相互依赖的定量关系的一种统计分析方法。
回归分析通常用回归方程描述变量之间的关系。
回归分析和相关关系有着密切的联系, 但又不同于相关关系。相关分析是回归分析的基础和前提, 回归分析是相关分析的深入和继续。在分析问题时, 只有将二者结合起来, 才能使得分析更有效、更科学。二者的区别体现在以下几个 方面:
- (1) 相关分析所研究的两个变量的关系是对等的, 无自变量和因变量之分; 而回归分析所研究的两个变量的关系不是对等的, 有自变量和因变量之分。
- (2) 相关分析只能计算变量 $X$ 与 $Y$ 的两变量间相关关系的密切程度, 改变二者地位不影响相关系数大小; 而回归分析可建立两个不同的回归方程, 改变二者地位有影响。
- (3) 相关分析中两个变量都必须是随机的, 而回归分析中仅因变量是随机的, 自变量是给定的。
参考资料
- 《漫画统计学》 作者:谢鸿光主编;国家统计局新闻办,陕西省统计局策划编写